#!/usr/bin/env python3
# -*- coding: utf-8 -*-
__author__ = '汤小洋'

'''
jieba库：用于将中文文本分割成多个中文词语，称为中文分词
分词原理：利用一个分词词库，将要分词的内容与词库进行比对，找出其中的词语
分词模式：
    1.精确模式（最常用）
        将句子最精确的切开，分割成等量的中文词语，适合文本分析
    2.全模式
        将句子中所有可以成词的词语都找出来，即所有分词可能都会列出来，速度快，但冗余性最大
    3.搜索引擎模式
        在精确模式的基础上，对长词再次切分，存在一定的冗余性，适合搜索引擎分词
'''

import jieba

jieba.add_word('Python科目')  # 向分词词库中添加新词，自定义单词

print(jieba.lcut('全国计算机等级考试Python科目'))  # 精确模式，返回一个列表
print(jieba.lcut('全国计算机等级考试Python科目', cut_all=True))  # 全模式
print(jieba.lcut_for_search('全国计算机等级考试Python科目'))  # 搜索引擎模式


